Mixtral 8x22B: mixture of experts abierto y potente

Mistral AI liberó Mixtral 8x22B el 10 de abril de 2024 con el estilo que ya les caracteriza: un magnet link en Twitter sin blog post previo ni conferencias. La comunidad descargó los pesos en horas. Al día siguiente ya había benchmarks. Es la generación siguiente de su arquitectura MoE (Mixture of Experts), con 141B parámetros totales pero solo 39B activos por forward pass. Esto cambia la economía de servir modelos abiertos.

Qué es Mixtral 8x22B

La arquitectura Sparse Mixture of Experts:

8 “expertos” de 22B parámetros cada uno.
Router que elige 2 expertos por token.
Total: 141B parámetros en disco.
Activos por forward pass: ~39B (2 expertos + componentes compartidos).

El resultado: capacidad ~141B con coste inferencial ~39B. Mejor relación calidad/coste que un modelo denso equivalente.

Licencia y distribución

Apache 2.0. Sin restricciones de uso comercial. Los pesos están en:

Hugging Face (base).
Hugging Face (instruct).
Magnet links originales siguen funcionando.

Comparado con Llama 3 70B (licencia más restrictiva) o Claude 3 (cerrado), Mixtral 8x22B es la opción más permisiva a gran escala.

Benchmarks clave

Números publicados por Mistral y benchmarks comunitarios:

Benchmark	Mixtral 8x22B	Llama 3 70B	GPT-4	GPT-3.5
MMLU	77.8	79.5	86.4	70.0
HellaSwag	88.9	88.0	95.3	85.5
GSM8K	78.6	93.0	92.0	57.1
HumanEval	45.1	81.7	88.4	48.1
Multilingüe (FR, ES, IT, DE)	Excelente	Bueno	Excelente	Medio

Puntos clave:

Calidad general cercana a Llama 3 70B, con arquitectura más eficiente inferencialmente.
Multilingüe superior a Llama 3 70B — especialmente español, francés, italiano, alemán.
Queda por detrás en matemáticas vs Llama 3 70B.
Coding competitivo pero no top.

Para casos multilingües EU, Mixtral 8x22B es probablemente la mejor opción abierta.

Hardware requerido

Esto es el factor limitante:

Precision	Memoria VRAM
FP16	~280 GB
INT8	~140 GB
INT4 (GGUF Q4_K_M)	~80 GB
INT3	~60 GB

Implicaciones prácticas:

No cabe en una GPU consumer: 4090 (24GB) no llega ni cuantizado.
Una A100 80GB o H100 80GB puede servir cuantizada Q4.
2x A100 40GB distribuido con tensor parallelism funciona.
Apple Silicon M3 Max 128GB: cabe Q4 y funciona a ~5-10 tokens/s.

Para producción seria, casi siempre necesitas GPU datacenter.

Comparación con Mixtral 8x7B

El hermano menor (46.7B total, 12.9B activos):

Aspecto	8x7B	8x22B
Parámetros totales	46.7B	141B
Activos/token	12.9B	39B
VRAM Q4	~25GB	~80GB
Calidad general	~GPT-3.5	~GPT-4 menor
Multilingüe	Muy bueno	Excelente
Tokens/s (A100 Q4)	~60	~25

Para muchos casos, 8x7B es más pragmático: más rápido, más barato, calidad suficiente. El 8x22B tiene sentido cuando calidad importa más que throughput.

Serving en producción

Stack típico:

# vLLM con tensor parallel
python -m vllm.entrypoints.openai.api_server \
  --model mistralai/Mixtral-8x22B-Instruct-v0.1 \
  --tensor-parallel-size 2 \
  --gpu-memory-utilization 0.9 \
  --max-model-len 32768

Para Q4 con llama.cpp:

./server -m mixtral-8x22b-instruct-Q4_K_M.gguf \
  -c 16384 -ngl 99 --host 0.0.0.0 --port 8080

vLLM es mejor throughput en GPU. llama.cpp es más portable y maneja offload CPU-GPU mixto.

Fine-tuning

LoRA en Mixtral 8x22B es factible:

QLoRA: puede hacerse en 4x A100 80GB.
Solo adaptar expertos específicos (MoE-aware fine-tuning) es activo research area.
DPO para alignment después de domain fine-tune.

Para la mayoría de casos empresariales, prompt engineering + RAG con Mixtral instruct sin fine-tune cubre. Fine-tune solo cuando claramente prompting no llegue.

Context length

Base: 64k tokens.
Práctico: ~32k sin degradación severa.
“Needle in haystack” performance decente hasta ~32k, degrada más allá.

Para RAG moderado o contexto long, suficiente. Para análisis de libros completos, Gemini 1.5 sigue liderando.

Casos de uso reales

Dónde Mixtral 8x22B brilla:

Multilingüe empresarial: documentos en ES/FR/IT/DE/EN.
Agentes de código medianos: no top-tier pero capaz.
RAG con contexto largo.
Summarization y análisis complejos.
Self-hosting con compliance estricto.

Donde otros modelos ganan:

Matemáticas: Llama 3 70B o Claude 3 Opus.
Coding top-tier: Claude 3 Opus, DeepSeek Coder.
Ultra-long context: Gemini 1.5.

Coste de servir

Calculado:

1 × A100 80GB on-prem: ~$15k/año amortizado.
AWS p4d.24xlarge (8× A100 40GB): $32/hora = ~$23k/mes.
Together.ai hosted: ~$2/1M tokens input + output.

Self-hosting compensa si procesas >100M tokens/mes sostenidamente. Debajo, hosted es más eficiente.

Alternativas en el espacio abierto

A fecha de abril 2024:

Llama 3 70B: mejor en razonamiento matemático, licencia más restrictiva.
Qwen 1.5 72B: fuerte multilingüe, licencia comercial bajo umbrales.
DeepSeek 67B: excelente en código.
Command R+ (Cohere): 104B denso, fuerte en RAG.
Yi 34B: menor tamaño, competitivo en muchos benchmarks.

La elección depende de caso concreto. No hay “el mejor” universal.

Conclusión

Mixtral 8x22B confirma que Mistral AI lidera la frontera abierta en Europa. Su arquitectura MoE equilibra calidad y eficiencia inferencial de forma atractiva. Para equipos que pueden permitirse el hardware, es actualmente la mejor opción abierta para casos multilingües serios. Para quienes no, Mixtral 8x7B sigue siendo válido como opción más ligera. Y para producción seria sin GPU propio, servicios hosted como Together.ai, Anyscale, o Mistral La Plateforme ofrecen acceso pay-per-token. El ecosistema abierto continúa cerrando la brecha con frontier models cerrados.

Síguenos en jacar.es para más sobre LLMs abiertos, arquitecturas MoE y despliegue de modelos.